如今,有了大数据和数据湖泊,我们面临着大量数据,这些数据很难手动管理。在这种情况下,对个人数据的保护需要自动分析数据发现。存储在知识库中已经分析的属性名称可以优化此自动发现。要拥有更好的知识库,我们不应存储任何名称没有意义的属性。在本文中,要检查属性的名称是否具有含义,我们提出了一个解决方案来计算此名称和字典中的单词之间的距离。我们对距离的研究诸如N-gram,Jaro-Winkler和Levenshtein的功能,显示了在知识库中设定属性的接受阈值的限制。为了克服这些局限性,我们的解决方案旨在通过基于最长序列使用指数函数来增强得分计算。此外,还提出了词典中的双扫描,以处理具有复合名称的属性。
translated by 谷歌翻译